The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
translated by 谷歌翻译
知识库问题应答(KBQA)旨在在外部知识库的帮助下回答自然语言问题。核心思想是找到内部知识与知识库的已知三元组之间的内部知识之间的联系。 KBQA任务管道包含几个步骤,包括实体识别,关系提取和实体链接。这种管道方法意味着任何过程中的错误将不可避免地传播到最终预测。为了解决上述问题,本文提出了一种具有预培训语言模型(PLM)和知识图(KG)的语料库生成 - 检索方法(CGRM)。首先,基于MT5模型,我们设计了两个新的预训练任务:基于段落的知识屏蔽语言建模和问题,以获取知识增强型T5(KT5)模型。其次,在用一系列启发式规则预处理知识图的预处理之后,KT5模型基于处理的三元组生成自然语言QA对。最后,我们通过检索合成数据集直接解决QA。我们在NLPCC-ICCPOL 2016 KBQA数据集上测试我们的方法,结果表明,我们的框架提高了KBQA的性能,直接向前的方法与最先进的方法竞争。
translated by 谷歌翻译
Implicit Neural Representations (INR) have recently shown to be powerful tool for high-quality video compression. However, existing works are limiting as they do not explicitly exploit the temporal redundancy in videos, leading to a long encoding time. Additionally, these methods have fixed architectures which do not scale to longer videos or higher resolutions. To address these issues, we propose NIRVANA, which treats videos as groups of frames and fits separate networks to each group performing patch-wise prediction. This design shares computation within each group, in the spatial and temporal dimensions, resulting in reduced encoding time of the video. The video representation is modeled autoregressively, with networks fit on a current group initialized using weights from the previous group's model. To further enhance efficiency, we perform quantization of the network parameters during training, requiring no post-hoc pruning or quantization. When compared with previous works on the benchmark UVG dataset, NIRVANA improves encoding quality from 37.36 to 37.70 (in terms of PSNR) and the encoding speed by 12X, while maintaining the same compression rate. In contrast to prior video INR works which struggle with larger resolution and longer videos, we show that our algorithm is highly flexible and scales naturally due to its patch-wise and autoregressive designs. Moreover, our method achieves variable bitrate compression by adapting to videos with varying inter-frame motion. NIRVANA achieves 6X decoding speed and scales well with more GPUs, making it practical for various deployment scenarios.
translated by 谷歌翻译
深度学习的视频介绍已取得了令人鼓舞的结果,并引起了研究人员的越来越多的关注。通常,这些方法通常假定每个框架的损坏区掩模都是已知且易于获得的。但是,这些口罩的注释是劳动密集型且昂贵的,这限制了当前方法的实际应用。因此,我们希望通过定义新的半监督镶嵌设置来放松这一假设,使网络具有仅使用一个框架的注释掩码来完成整个视频损坏区域的能力。具体而言,在这项工作中,我们提出了一个由完成网络和掩码预测网络组成的端到端可训练框架,该框架旨在使用已知的掩码生成当前框架的损坏内容,并决定将填充下一个区域框架分别。此外,我们引入了周期一致性损失,以使这两个网络的训练参数正常。这样,完成网络和掩码预测网络可以相互限制,因此可以最大化训练有素的模型的整体性能。此外,由于先验知识的自然存在(例如,损坏的内容和清晰的边界),当前的视频介绍数据集在半监督视频介绍的背景下不适合。因此,我们通过模拟现实情况的损坏视频来创建一个新的数据集。据报道,广泛的实验结果证明了我们在视频介绍任务中模型的优越性。值得注意的是,尽管我们的模型以半监督的方式进行了训练,但它可以作为完全监督的方法实现可比的性能。
translated by 谷歌翻译
基于激光雷达的3D场景感知是自动驾驶的基本和重要任务。大多数基于激光雷达的3D识别任务的最新方法都集中在单帧3D点云数据上,并且这些方法在这些方法中被忽略。我们认为,整个框架的时间信息为3D场景感知提供了重要的知识,尤其是在驾驶场景中。在本文中,我们专注于空间和时间变化,以更好地探索3D帧的时间信息。我们设计了一个时间变化 - 意识到的插值模块和时间体素点炼油厂,以捕获4D点云中的时间变化。时间变化 - 意识插值通过捕获空间连贯性和时间变化信息来生成从上一个和当前帧的局部特征。时间体素点炼油厂在3D点云序列上构建了时间图,并使用图形卷积模块捕获时间变化。时间体素点炼油厂还将粗素级预测转换为精细的点级预测。通过我们提出的模块,新的网络TVSN在Semantickitti和Semantiposs上实现了最先进的性能。具体而言,我们的方法在MIOU中达到52.5 \%(以前的最佳方法+5.5%)在Semantickitti的多个扫描细分任务上,semanticposs的多个扫描分段任务(63.0%)(以前的最佳方法+2.8%)。
translated by 谷歌翻译
使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
源代码的表示学习对于将机器学习应用于软件工程任务至关重要。已经显示,跨不同编程语言的学习代码表示比从单语言数据集中学习更有效,因为来自多语言数据集的更多培训数据可提高该模型从源代码中提取语言 - 不平衡信息的能力。但是,现有的多语言模型忽略了特定于语言的信息,这对于在多语言数据集中培训的下游任务至关重要,同时仅着眼于学习不同语言之间的共享参数。为了解决这个问题,我们提出了MetatPtrans,这是一种用于多语言代码表示学习的元学习方法。 MetAtPtrans根据输入源代码段的特定编程语言为特征提取器生成不同的参数,从而使模型能够同时学习语言 - 语言和特定于语言的信息。实验结果表明,MetAtPtrans可将最新方法的F1得分显着提高到2.40个百分点,以汇总代码摘要,这是一项语言不可或缺的任务;以及TOP-1(TOP-5)的预测准确性高达7.32(13.15)百分点,以完成代码完成,这是一项特定于语言的任务。
translated by 谷歌翻译
我们提出了神经空间填充曲线(SFC),这是一种数据驱动的方法,用于推断一组图像的基于上下文的扫描顺序。像素的线性排序构成了许多应用程序的基础,例如用于图像的生成建模中的视频扰动,压缩和自动回归模型。现有的算法诉诸固定扫描算法,例如栅格扫描或希尔伯特扫描。取而代之的是,我们的工作使用基于图的神经网络从图像数据集中学习了像素的空间连贯的线性顺序。当图像与扫描线顺序一起遍历时,对所得神经SFC进行了优化,适用于适合下游任务的物镜。我们展示了在下游应用中使用神经SFC(例如图像压缩)的优势。代码和其他结果将在https://hywang66.github.io/publication/neuralsfc上提供。
translated by 谷歌翻译
在这项工作中,证明了功能$ f $的收敛引理是分析映射的有限组成和最大运算符。引理表明,$ \ delta $ - 定位点附近附近的隔离本地最小点$ x^*$正在收缩到$ x^*$,为$ \ delta \ to 0 $。它是强烈凸出$ c^1 $函数的版本的自然扩展。但是,引理的正确性是微妙的。分析映射对于诱饵是必要的,因为用可区分或$ c^\ infty $映射代替它会导致引理错误。该证明基于{\ l} ojasiewicz的半分析集的分层定理。此证明的扩展显示了$ f $的一组固定点的几何表征。最后,提出了在固定点上的稳定性概念,称为收敛稳定性。它询问,在小数字错误下,合理的收敛优化方法是否在固定点附近开始应最终收敛到同一固定点。仅当目标函数既非滑动和非概念),趋同稳定性的概念在质量上变得无处不在。通过收敛引理,证明了$ F $的收敛稳定性的直观等效条件。这些结果共同提供了一个新的几何观点,可以研究非平滑非凸优化中“何处连接”的问题。
translated by 谷歌翻译
从理论上讲,通过引入蛋白质3D结构信息,可以改善化合物蛋白结合亲和力(CPA)中计算模型的准确性。但是,由于缺乏有效编码信息蛋白质特征的有效方法,这些模型中的大多数仍然存在低精度。主要的挑战是如何结合多模式信息,例如蛋白质的残基序列,残基原子坐标和扭转角。为了解决这个问题,我们开发了快速的进化关注和彻底的图形神经网络(featnn),以促进蛋白质3D结构信息的应用以预测CPA。具体而言,我们建立了一种新型的端到端结构,以共同嵌入扭转矩阵,离散距离矩阵以及蛋白质和提取具有深图卷积层的复合特征的序列信息。此外,引入了一种新的成对映射注意机制,以全面了解蛋白质和化合物之间的潜在相互作用信息。在CPA预测中,R2系数升高约21.33%,在CPA预测中的各种最新基准都大大优于各种最新基线。因此,壮举为高度准确的CPA预测提供了出色的方法,并促进了候选药物的高通量虚拟筛查。
translated by 谷歌翻译